지도 학습
1. 개요
1. 개요
지도 학습은 머신러닝의 주요 패러다임 중 하나로, 레이블이 지정된 훈련 데이터를 사용하여 입력과 출력 간의 관계를 학습하는 방법이다. 이는 교사가 정답을 알려주며 학생을 가르치는 것에 비유되어 '지도'라는 이름이 붙었다. 지도 학습 모델은 주어진 입력(특징)에 대해 올바른 출력(레이블)을 예측하도록 훈련되며, 이를 통해 새로운, 보지 못한 데이터에 대한 예측을 수행한다.
지도 학습은 크게 분류와 회귀라는 두 가지 주요 문제 유형으로 나뉜다. 분류는 이메일이 '스팸'인지 '정상'인지, 이미지가 '고양이'인지 '강아지'인지와 같이 이산적인 카테고리(클래스)를 예측하는 작업이다. 반면, 회귀는 집의 크기, 위치 등의 특징을 바탕으로 집값이나, 시간에 따른 판매량과 같은 연속적인 수치 값을 예측하는 작업이다.
이 학습 방식은 현실 세계의 다양한 문제 해결에 널리 적용된다. 예를 들어, 의료 진단 지원, 금융 사기 탐지, 기상 예보, 추천 시스템 등이 그 대표적인 사례이다[1]. 지도 학습의 성공은 충분한 양의 정확한 레이블 데이터와 적절한 알고리즘 선택, 그리고 모델의 일반화 능력에 크게 의존한다.
2. 지도 학습의 기본 개념
2. 지도 학습의 기본 개념
지도 학습은 레이블이 지정된 훈련 데이터를 사용하여 입력과 출력 간의 관계를 학습하는 머신러닝 패러다임이다. 알고리즘은 입력 데이터와 그에 대응하는 정답인 레이블을 함께 제공받고, 이 둘 사이의 매핑 규칙을 모델링한다. 학습이 완료된 모델은 새로운, 레이블이 없는 데이터에 대해 예측을 수행할 수 있다.
지도 학습의 핵심 구성 요소는 훈련 데이터와 레이블이다. 훈련 데이터는 모델이 학습하는 데 사용되는 예시들의 집합이며, 각 예시는 하나 이상의 특성 또는 입력 변수로 구성된다. 레이블은 각 훈련 데이터 예시에 대해 알고리즘이 예측해야 할 정답 값이다. 예를 들어, 이메일이 스팸인지 아닌지를 분류하는 문제에서 각 이메일의 텍스트 데이터가 훈련 데이터가 되고, '스팸' 또는 '정상'이라는 태그가 레이블이 된다.
이러한 구조에서 입력 변수는 일반적으로 X로, 목표 변수(레이블)는 Y로 표기된다. 모델의 목표는 함수 f를 학습하여 Y ≈ f(X)라는 관계를 근사하는 것이다. 목표 변수 Y의 형태에 따라 지도 학습 작업은 크게 두 가지로 나뉜다. Y가 이산적인 범주(예: 고양이, 강아지)인 경우 분류 문제가 되고, Y가 연속적인 수치(예: 주가, 온도)인 경우 회귀 문제가 된다.
구성 요소 | 설명 | 예시 (주택 가격 예측) |
|---|---|---|
입력 변수 (X) | 모델에 제공되는 데이터의 특성 또는 속성. | 주택의 크기(㎡), 방의 개수, 지어진 연도, 위치 |
목표 변수 (Y) | 모델이 예측해야 할 정답 값. 레이블이라고도 함. | 주택의 매매 가격 (단위: 억 원) |
훈련 데이터 | (입력 변수, 목표 변수) 쌍으로 구성된 예시들의 집합. | (크기: 84㎡, 방: 3, 연도: 2010, 위치: 서울, 가격: 5.2억) |
학습된 모델 (f) | 입력 X로부터 목표 Y를 예측하는 함수. | f(크기, 방, 연도, 위치) → 예상 가격 |
2.1. 훈련 데이터와 레이블
2.1. 훈련 데이터와 레이블
지도 학습 모델을 학습시키기 위해 사용되는 데이터를 훈련 데이터라고 부른다. 지도 학습의 핵심은 이 훈련 데이터가 입력값과 그에 대응하는 정답, 즉 레이블로 구성된다는 점이다. 예를 들어, 고양이와 개의 사진을 분류하는 모델을 학습시킬 때, 각 사진 파일이 입력값이라면 "고양이" 또는 "개"라는 텍스트나 숫자 코드가 해당 사진의 레이블이 된다.
레이블은 모델이 예측해야 할 목표값으로, 문제의 종류에 따라 형태가 달라진다. 분류 문제에서는 레이블이 이산적인 범주값(예: 스팸/정상 메일, 병종 A/B/C)인 반면, 회귀 문제에서는 레이블이 연속적인 수치값(예: 주택 가격, 다음날 주식 종가)이다. 충분한 양과 질을 갖춘 훈련 데이터와 정확한 레이블이 준비되어야 효과적인 모델 학습이 가능하다.
데이터 구성 요소 | 설명 | 예시 (분류) | 예시 (회귀) |
|---|---|---|---|
입력 변수 (특징) | 모델에 제공되는 관측 데이터. | 사진의 픽셀값, 이메일의 텍스트 및 메타데이터 | 주택의 평수, 방 개수, 지어진 연도 |
레이블 (목표 변수) | 입력에 대응하는 정답 또는 목표값. | "고양이", "스팸 메일" | 5.3억 원, 30500원 |
이러한 훈련 데이터 세트는 일반적으로 과거에 수집된 기록 데이터를 기반으로 구축된다. 데이터 과학자의 핵심 작업 중 하나는 원시 데이터를 정제하고 적절한 특징을 추출하여 모델이 이해할 수 있는 입력 형태로 가공하고, 각 샘플에 정확한 레이블을 부여하는 것이다. 레이블링 작업은 많은 경우 수동으로 이루어지며, 이 과정에서 발생할 수 있는 오류나 주관성은 모델 성능에 직접적인 영향을 미친다[2].
2.2. 입력 변수와 목표 변수
2.2. 입력 변수와 목표 변수
훈련 데이터는 일반적으로 특징 벡터와 레이블의 쌍으로 구성됩니다. 특징 벡터는 모델의 입력이 되는 변수들로, 각각의 데이터 포인트를 설명하는 속성이나 측정값입니다. 예를 들어, 주택 가격을 예측하는 문제에서 방의 개수, 평수, 위치 등이 입력 변수가 될 수 있습니다. 이 변수들은 독립 변수, 예측 변수, 특징(feature)이라고도 불립니다.
반면, 목표 변수는 모델이 예측하거나 분류하려는 대상입니다. 이는 지도 학습에서 제공되는 정답 레이블에 해당하며, 종속 변수, 응답 변수, 출력 변수라고도 합니다. 위의 예시에서 주택의 실제 가격이 목표 변수가 됩니다. 목표 변수의 형태에 따라 지도 학습의 주요 과제인 분류와 회귀가 구분됩니다.
입력 변수와 목표 변수의 관계는 함수로 표현될 수 있습니다. 지도 학습 모델은 주어진 입력 변수(X)로부터 목표 변수(y)를 매핑하는 함수 f를 근사하는 것을 목표로 합니다. 즉, y ≈ f(X)라는 관계를 학습합니다. 이 함수는 선형 회귀에서의 직선 방정식부터 심층 신경망의 복잡한 비선형 변환까지 다양한 형태를 가질 수 있습니다.
데이터 전처리 단계에서 입력 변수는 종종 정규화나 표준화 과정을 거쳐 모델 학습의 효율성과 안정성을 높입니다. 목표 변수는 회귀 문제에서는 연속적인 실수값을, 분류 문제에서는 이산적인 클래스 레이블을 가지며, 이에 맞는 적절한 손실 함수가 선택됩니다.
3. 주요 알고리즘 유형
3. 주요 알고리즘 유형
지도 학습 알고리즘은 해결하려는 문제의 성격에 따라 크게 분류와 회귀 두 가지 주요 유형으로 나뉜다. 이 구분은 목표 변수의 형태에 기반한다. 분류는 이산적인 카테고리 레이블을 예측하는 반면, 회귀는 연속적인 수치 값을 예측하는 것이 핵심 차이점이다.
분류 알고리즘은 입력 데이터를 미리 정의된 클래스 중 하나로 할당하는 것을 목표로 한다. 이진 분류는 스팸 메일 탐지나 질병 진단처럼 두 개의 클래스(예: 스팸/햄, 양성/음성)를 구분한다. 다중 클래스 분류는 손글씨 숫자 인식이나 객체 인식처럼 세 개 이상의 클래스를 다룬다. 대표적인 분류 알고리즘으로는 로지스틱 회귀, 의사결정나무, 서포트 벡터 머신, 나이브 베이즈, k-최근접 이웃 알고리즘 등이 있다.
회귀 알고리즘은 연속적인 출력 값을 예측하는 데 사용된다. 주택 가격, 주식 가격, 기온, 판매량 예측 등이 전형적인 예시이다. 회귀 모델은 입력 변수와 목표 변수 사이의 함수 관계를 학습하여 새로운 입력에 대한 수치를 추정한다. 가장 기본적인 모델은 선형 회귀이며, 그 외에 다항 회귀, 릿지 회귀, 라쏘 회귀, 의사결정나무를 이용한 회귀 트리 등이 널리 활용된다.
일부 알고리즘은 분류와 회귀 모두에 적용 가능한 경우도 있다. 예를 들어, 의사결정나무와 랜덤 포레스트, 신경망은 목표 변수가 범주형이면 분류기로, 수치형이면 회귀기로 작동하도록 구성할 수 있다. 선택된 알고리즘 유형은 데이터의 특성과 해결해야 할 비즈니스 문제의 본질에 따라 결정된다.
3.1. 분류 알고리즘
3.1. 분류 알고리즘
분류 알고리즘은 지도 학습의 주요 유형 중 하나로, 입력 데이터를 미리 정의된 범주 또는 클래스로 구분하는 작업을 수행한다. 예를 들어, 이메일을 '스팸'과 '정상'으로 나누거나, 붓꽃의 측정값을 종에 따라 분류하는 것이 이에 해당한다. 알고리즘은 훈련 데이터와 그에 해당하는 레이블을 학습하여, 새로운 데이터가 어떤 클래스에 속할지 예측하는 분류기를 구축한다.
분류 알고리즘은 크게 이진 분류와 다중 클래스 분류로 나눌 수 있다. 이진 분류는 두 개의 클래스 중 하나를 선택하는 문제이며, 다중 클래스 분류는 세 개 이상의 클래스 중 하나를 예측한다. 주요 알고리즘으로는 로지스틱 회귀, 의사결정나무, 랜덤 포레스트, 서포트 벡터 머신, 나이브 베이즈, k-최근접 이웃 알고리즘 등이 있다.
각 알고리즘은 데이터의 특성과 문제의 복잡도에 따라 적합성이 달라진다. 간단한 결정 경계에는 로지스틱 회귀가, 비선형적이고 복잡한 관계를 모델링할 때는 서포트 벡터 머신이나 신경망이 자주 사용된다. 의사결정나무는 해석이 용이하지만, 이를 앙상블한 랜덤 포레스트나 그래디언트 부스팅은 일반적으로 더 높은 예측 성능을 보인다.
분류 모델의 성능은 정확도, 정밀도, 재현율, F1 점수 등의 지표로 평가된다. 특히 클래스 간 데이터 불균형이 심한 경우, 단순 정확도보다는 재현율과 정밀도를 함께 고려하는 것이 중요하다.
3.2. 회귀 알고리즘
3.2. 회귀 알고리즘
회귀 알고리즘은 연속적인 수치 값을 예측하는 지도 학습의 한 유형이다. 분류가 이산적인 카테고리를 예측하는 것과 달리, 회귀는 주택 가격, 기온, 판매량과 같은 실수 값을 결과로 도출한다. 입력 변수와 목표 변수 간의 관계를 모델링하여, 새로운 입력이 주어졌을 때 그에 상응하는 연속적인 출력 값을 추정하는 것이 목표이다.
주요 회귀 알고리즘은 다음과 같다.
알고리즘 | 주요 특징 | 일반적인 사용 예시 |
|---|---|---|
입력 변수와 목표 변수 간의 선형 관계를 가정하는 가장 기본적인 모델. | 주택 크기와 가격 관계 모델링, 광고비 대비 매출 예측 | |
선형 회귀의 확장으로, 변수의 거듭제곱 항을 추가하여 비선형 관계를 모델링할 수 있다. | 성장 곡선 분석, 물리적 실험 데이터 피팅 | |
변수가 많고 상관관계가 높은 데이터셋에서의 예측 | ||
L1 정규화를 적용하여 불필요한 변수의 계수를 0으로 만들어 변수 선택의 효과를 동시에 가진다. | 고차원 데이터에서의 특징 선택이 포함된 예측 | |
의사결정 트리 회귀 | 데이터를 분할하는 규칙의 트리를 만들어 각 영역의 평균값을 예측값으로 사용한다. | 복잡한 비선형 관계를 가진 데이터 예측 |
랜덤 포레스트 회귀 | 여러 의사결정 트리의 예측을 평균내어 더 안정적이고 일반화 성능이 높은 예측을 제공한다. | 다양한 분야의 정확한 수치 예측 요구사항 |
회귀 모델의 성능은 주로 예측값과 실제값 사이의 오차를 기반으로 평가된다. 대표적인 평가 지표로는 평균 제곱 오차, 평균 절대 오차, 결정 계수 등이 있다[3]. 알고리즘 선택은 데이터의 특성, 관계의 선형성, 그리고 과적합 방지 필요성 등에 따라 결정된다.
4. 대표적인 지도 학습 모델
4. 대표적인 지도 학습 모델
지도 학습에서 사용되는 모델은 크게 선형 모델, 트리 기반 모델, 서포트 벡터 머신, 신경망 등으로 구분할 수 있다. 각 모델은 데이터의 특성과 해결하려는 문제의 종류에 따라 적합성이 달라진다.
선형 모델은 입력 변수와 목표 변수 사이의 선형 관계를 가정하는 가장 기본적인 모델이다. 대표적으로 선형 회귀와 로지스틱 회귀가 있으며, 각각 연속값 예측과 범주형 분류에 사용된다. 이 모델들은 해석이 용이하고 계산 비용이 낮다는 장점을 지니지만, 복잡한 비선형 관계를 모델링하기에는 한계가 있다.
트리 기반 모델은 의사결정 규칙을 나무 구조로 표현한다. 의사결정 나무를 기본으로 하여, 여러 트리의 예측을 결합하는 랜덤 포레스트나 그래디언트 부스팅 같은 앙상블 방법이 널리 쓰인다. 이들은 특성의 스케일에 영향을 받지 않으며, 비선형 관계와 상호작용을 잘 포착할 수 있다. 그러나 과적합되기 쉬우며, 단일 트리 모델의 경우 예측 성능이 비교적 낮을 수 있다.
서포트 벡터 머신은 데이터를 가장 넓은 마진으로 분리하는 결정 경계를 찾는 알고리즘이다. 커널 트릭을 사용하여 저차원 데이터를 고차원 공간으로 변환함으로써 복잡한 비선형 분류 문제를 효과적으로 해결할 수 있다. 신경망, 특히 심층 신경망은 여러 은닉층을 통해 데이터의 계층적 표현을 학습한다. 컨볼루션 신경망은 이미지 인식에, 순환 신경망은 시계열 데이터 처리에 특화되어 있다. 이 모델들은 매우 복잡한 패턴을 학습할 수 있지만, 많은 양의 데이터와 계산 자원이 필요하며, 해석이 어려운 '블랙박스' 성격을 가진다.
모델 유형 | 대표 알고리즘 | 주요 특징 | 적합한 문제 |
|---|---|---|---|
선형 모델 | 선형 회귀, 로지스틱 회귀 | 해석 용이, 계산 효율적, 선형 관계 가정 | 기본적인 회귀 및 분류 |
트리 기반 모델 | 의사결정 나무, 랜덤 포레스트, 그래디언트 부스팅 | 비선형 관계 포착, 특성 스케일 영향 없음, 앙상블 시 성능 우수 | 구조화된 테이블 데이터 분류/회귀 |
서포트 벡터 머신 | SVM (커널 SVM 포함) | 마진 최대화, 고차원 공간에서의 효과적 분리 | 중소규모 데이터셋의 복잡한 분류 |
신경망 | 심층 신경망, CNN, RNN | 매우 복잡한 비선형 관계 학습, 특징 추출 자동화 | 이미지, 음성, 자연어 처리 등 비정형 데이터 |
4.1. 선형 모델
4.1. 선형 모델
선형 모델은 입력 변수(특성)의 선형 결합을 통해 목표 변수를 예측하는 모델이다. 가장 기본적이고 해석이 용이한 지도 학습 알고리즘으로, 회귀 분석과 분류 문제 모두에 널리 사용된다. 모델의 핵심은 가중치(weight)와 편향(bias)이라는 매개변수를 데이터로부터 학습하여 최적의 선형 관계를 찾는 것이다.
분류 문제에서는 로지스틱 회귀가 대표적이다. 이 모델은 선형 함수의 출력을 시그모이드 함수를 통해 0과 1 사이의 확률 값으로 변환하여 이진 분류를 수행한다. 회귀 문제에서는 선형 회귀가 기본 모델로, 연속적인 목표 값을 예측한다. 다중 입력 변수를 다루는 다중 선형 회귀와 변수 간 상호작용을 고려한 다항식 회귀 등으로 확장될 수 있다.
선형 모델의 학습은 주로 최소제곱법이나 경사 하강법을 통해 손실 함수를 최소화하는 방식으로 이루어진다. 정규화 기법을 결합한 릿지 회귀와 라쏘 회귀는 모델의 복잡도를 제어하고 과적합을 방지하는 데 효과적이다.
모델 유형 | 주요 문제 | 설명 | 특징 |
|---|---|---|---|
회귀 | 연속값 예측 | 최소제곱법으로 학습 | |
분류 | 확률 기반 이진 분류 | 시그모이드 함수 사용 | |
회귀 | L2 정규화 적용 | 가중치의 크기를 제한 | |
회귀 | L1 정규화 적용 | 특성 선택 효과 있음 |
이 모델들은 계산 비용이 낮고 구현이 간단하며, 학습된 가중치를 통해 각 특성이 예측에 미치는 영향을 직접 해석할 수 있다는 장점이 있다. 그러나 데이터가 복잡한 비선형 관계를 보일 경우 예측 성능이 제한될 수 있다.
4.2. 트리 기반 모델
4.2. 트리 기반 모델
트리 기반 모델은 의사결정나무를 기본 구성 요소로 사용하는 지도 학습 알고리즘의 한 유형이다. 이 모델들은 데이터의 특성에 기반하여 일련의 질문(분기)을 통해 결정을 내리는 트리 구조를 구축한다. 최종 예측은 트리의 잎 노드에 도달했을 때 이루어진다. 단일 의사결정나무는 해석이 용이하지만, 데이터의 작은 변동에 민감하고 과적합되기 쉬운 단점이 있다. 이를 보완하기 위해 여러 개의 트리를 결합한 앙상블 학습 방법이 널리 사용된다.
대표적인 트리 기반 앙상블 모델로는 랜덤 포레스트, 그래디언트 부스팅 머신 등이 있다. 랜덤 포레스트는 배깅 방식을 사용하여 여러 개의 깊은 트리를 독립적으로 학습하고, 그 결과를 평균하거나 투표하여 예측한다. 이 과정에서 각 트리는 데이터의 무작위 하위 집합과 특성의 무작위 하위 집합을 사용하여 학습되므로, 모델의 다양성이 증가하고 과적합을 억제하는 효과가 있다.
그래디언트 부스팅 머신은 부스팅 방식에 속하며, 여러 개의 얕은 트리(약한 학습기)를 순차적으로 학습시킨다. 각 새로운 트리는 이전 트리들이 예측한 오차(잔차)를 줄이는 방향으로 학습되어, 점진적으로 모델의 성능을 향상시킨다. XGBoost, LightGBM, CatBoost 등은 그래디언트 부스팅의 효율성을 높인 현대적인 구현체들이다.
트리 기반 모델은 수치형과 범주형 데이터를 함께 처리할 수 있고, 특징의 단위나 스케일에 영향을 받지 않으며, 비선형 관계를 잘 포착한다는 장점이 있다. 그러나 데이터가 매우 고차원이거나 희소한 경우에는 성능이 떨어질 수 있으며, 트리의 깊이가 깊어지면 모델 해석이 어려워질 수 있다.
4.3. 서포트 벡터 머신
4.3. 서포트 벡터 머신
서포트 벡터 머신(SVM)은 분류와 회귀 분석에 모두 사용되는 강력한 지도 학습 알고리즘이다. 이 모델의 핵심 목표는 데이터 포인트들을 가장 넓은 마진(margin)으로 분리하는 최적의 결정 경계(decision boundary) 또는 초평면(hyperplane)을 찾는 것이다. 이때 결정 경계를 정의하는 데 직접적으로 기여하는 소수의 중요한 훈련 데이터 샘플들을 서포트 벡터(support vector)라고 부른다.
서포트 벡터 머신의 가장 큰 특징은 커널 트릭(kernel trick)을 활용할 수 있다는 점이다. 원본 특징 공간에서 선형적으로 분리하기 어려운 데이터를, 고차원의 새로운 공간으로 변환하여 선형 분리가 가능하도록 만든다. 이 변환을 실제로 수행하지 않고, 커널 함수를 통해 고차원 공간에서의 내적 계산만으로 효과적으로 분류를 수행할 수 있다. 대표적인 커널 함수로는 선형 커널, 다항식 커널, 방사 기저 함수(RBF) 커널 등이 있다.
서포트 벡터 머신은 다양한 분야에서 활용된다. 주요 적용 사례는 다음과 같다.
적용 분야 | 주요 용도 |
|---|---|
단백질 구조 분류, 유전자 발현 데이터 분석 | |
필기체 숫자 인식, 객체 식별 | |
스팸 메일 필터링, 감성 분석, 문서 카테고리 분류 | |
얼굴 검출 및 인증 |
이 모델은 고차원 데이터에서도 효과적이며, 과적합에 대한 저항력이 비교적 강한 편이다. 그러나 대규모 데이터셋에 대해 훈련 시간이 길어질 수 있으며, 커널과 관련 매개변수 선택에 성능이 크게 의존한다는 한계도 있다.
4.4. 신경망
4.4. 신경망
신경망은 인간의 뇌 신경 세포(뉴런)의 연결 구조에서 영감을 받아 설계된 머신러닝 모델이다. 입력층, 하나 이상의 은닉층, 출력층으로 구성된 계층적 구조를 가지며, 각 층은 여러 개의 인공 뉴런으로 이루어져 있다. 각 뉴런은 입력값에 가중치를 곱하고 편향을 더한 후, 활성화 함수를 통과시켜 출력을 생성한다. 이 출력은 다음 층의 입력으로 전달된다. 이러한 다층 구조 덕분에 신경망은 선형 모델로는 표현하기 어려운 복잡한 비선형 관계를 학습할 수 있다.
신경망의 학습은 역전파 알고리즘을 통해 이루어진다. 모델의 예측값과 실제 레이블 간의 오차를 계산하는 손실 함수의 값을 최소화하는 방향으로, 각 연결의 가중치와 편향을 조정한다. 이 과정에서 경사 하강법과 같은 최적화 기법이 사용된다. 은닉층의 수와 각 층의 뉴런 수는 모델의 복잡도를 결정하는 주요 하이퍼파라미터이다.
모델 유형 | 주요 특징 | 일반적인 활용 예 |
|---|---|---|
기본적인 피드포워드 구조, 완전 연결층 사용 | 표준적인 분류 및 회귀 문제 | |
합성곱층과 풀링층을 사용하여 공간적/지역적 패턴 추출 | 이미지 인식, 컴퓨터 비전 | |
순환 연결을 통해 시퀀스 데이터의 시간적 의존성 모델링 | 시계열 예측, 자연어 처리 |
깊은 은닉층을 가진 신경망을 특히 딥러닝이라고 부르며, 대량의 데이터와 높은 계산 자원을 바탕으로 텍스트, 이미지, 음성 등 다양한 형태의 복잡한 데이터에서 뛰어난 성능을 보인다. 그러나 모델이 복잡해질수록 과적합 위험이 증가하고, 학습에 필요한 데이터 양과 계산 비용이 크게 늘어나는 단점도 있다.
5. 모델 학습 과정
5. 모델 학습 과정
지도 학습 모델의 학습 과정은 주어진 훈련 데이터를 이용하여 입력과 출력 사이의 관계를 가장 잘 설명하는 모델 매개변수를 찾는 과정이다. 이 과정은 일반적으로 손실 함수를 정의하고 이를 최소화하는 방식으로 이루어진다.
손실 함수는 모델의 예측값과 실제 레이블 값 사이의 차이를 측정하는 함수이다. 회귀 문제에서는 평균 제곱 오차가, 분류 문제에서는 교차 엔트로피가 흔히 사용된다[4]. 학습 알고리즘은 이 손실 함수의 값을 최소화하는 방향으로 모델의 매개변수를 반복적으로 조정하며, 이 최적화 과정에는 경사 하강법이나 그 변형 알고리즘들이 널리 활용된다.
최적화 개념 | 설명 |
|---|---|
모델 예측의 오차를 정량화하는 함수. 학습의 목표는 이를 최소화하는 것. | |
손실 함수의 기울기(경사)를 계산하여 매개변수를 조금씩 업데이트하는 기본 알고리즘. | |
경사 하강법에서 매개변수를 한 번에 얼마나 변경할지 결정하는 하이퍼파라미터. |
학습 과정에서 주의해야 할 핵심 문제는 과적합이다. 과적합은 모델이 훈련 데이터에 지나치게 맞춰져 새로운, 보지 못한 데이터에 대한 일반화 성능이 떨어지는 현상을 말한다. 이를 방지하기 위해 정규화, 드롭아웃(신경망의 경우), 조기 종료 등의 기법이 사용된다. 반대로 과소적합은 모델이 데이터의 기본 패턴을 충분히 학습하지 못한 상태를 의미하며, 더 복잡한 모델을 사용하거나 학습 시간을 늘리는 방식으로 해결한다.
5.1. 손실 함수와 최적화
5.1. 손실 함수와 최적화
모델 학습의 핵심 목표는 손실 함수를 최소화하는 모델의 매개변수를 찾는 것이다. 손실 함수는 모델의 예측값과 실제 레이블 값 사이의 차이를 측정하는 함수이다. 회귀 문제에서는 평균 제곱 오차가, 분류 문제에서는 교차 엔트로피가 흔히 사용되는 손실 함수의 예이다.
손실 함수의 값을 최소화하기 위해 최적화 알고리즘이 사용된다. 가장 기본적인 최적화 방법은 경사 하강법이다. 이 방법은 손실 함수의 기울기(gradient)를 계산하여, 기울기가 감소하는 방향으로 모델의 매개변수를 반복적으로 조정한다. 경사 하강법의 변형으로 학습률을 조절하거나 모멘텀을 적용한 확률적 경사 하강법, Adam 등의 고급 최적화 알고리즘이 널리 쓰인다.
최적화 알고리즘 | 주요 특징 | 일반적인 사용처 |
|---|---|---|
배치 경사 하강법 | 전체 훈련 데이터의 기울기를 한 번에 계산하여 매개변수 갱신 | 데이터셋이 비교적 작을 때 |
확률적 경사 하강법 (SGD) | 한 개 또는 작은 배치의 데이터 샘플마다 기울기를 계산하고 갱신 | 대규모 데이터셋, 온라인 학습 |
Adam | 적응형 학습률과 모멘텀 개념을 결합한 알고리즘 | 다양한 딥러닝 모델에 널리 적용 |
이 과정에서 학습률은 매개변수 갱신의 보폭을 결정하는 중요한 초매개변수이다. 학습률이 너무 크면 최적점을 지나쳐 발산할 수 있고, 너무 작으면 학습 속도가 매우 느려지거나 지역 최소점에 갇힐 수 있다. 따라서 적절한 학습률을 설정하거나 학습 중에 조정하는 전략이 필요하다.
5.2. 과적합과 일반화
5.2. 과적합과 일반화
과적합은 모델이 훈련 데이터에 지나치게 맞춰져 새로운, 보지 못한 데이터에 대한 예측 성능이 떨어지는 현상이다. 이는 모델이 데이터의 잡음이나 무작위 변동까지 학습하여 복잡한 패턴을 암기해버렸기 때문에 발생한다. 반면, 일반화는 학습된 모델이 새로운 데이터에 얼마나 잘 적용되는지를 나타내는 능력이다. 지도 학습의 궁극적 목표는 높은 일반화 성능을 달성하는 것이다.
과적합을 유발하는 주요 원인은 모델의 복잡도가 너무 높거나 훈련 데이터의 양이 부족한 경우이다. 예를 들어, 매개변수가 많은 복잡한 신경망이나 깊이가 매우 깊은 의사결정 나무는 훈련 데이터의 세부 사항까지 완벽히 맞추려는 경향이 있다. 이를 방지하기 위한 일반적인 기법으로는 정규화, 드롭아웃, 조기 종료, 데이터 증강 등이 있다.
일반화 성능을 평가하고 과적합을 감지하기 위해 데이터를 훈련 세트, 검증 세트, 테스트 세트로 나누는 방법이 널리 사용된다. 모델은 훈련 세트로 학습되고, 검증 세트로 하이퍼파라미터를 조정하며 과적합을 모니터링한다. 최종 평가는 완전히 새로운 테스트 세트로 수행하여 모델의 실제 일반화 능력을 측정한다. 이러한 데이터 분할은 모델이 훈련 데이터에만 특화되지 않도록 하는 핵심 절차이다.
개념 | 설명 | 대표적 해결/평가 방법 |
|---|---|---|
과적합 | 훈련 데이터에만 지나치게 적합되어 새로운 데이터 성능 저하 | 정규화, 드롭아웃, 더 많은 데이터 수집, 모델 복잡도 감소 |
일반화 | 학습된 모델이 새로운 데이터에 적용되는 능력 | 훈련/검증/테스트 세트 분리, 교차 검증, 적절한 모델 복잡도 선택 |
과소적합 | 모델이 너무 단순하여 훈련 데이터의 기본 패턴도 제대로 학습하지 못함 | 모델 복잡도 증가, 특징 공학, 더 긴 학습 시간 |
6. 성능 평가 지표
6. 성능 평가 지표
지도 학습 모델의 성능을 정량적으로 측정하기 위해 다양한 평가 지표가 사용된다. 이 지표들은 모델이 학습한 패턴을 얼마나 잘 일반화했는지, 즉 보지 못한 새로운 데이터에 대해 얼마나 정확한 예측을 하는지를 수치화하여 보여준다. 평가 지표의 선택은 해결하려는 문제의 유형(분류 또는 회귀)과 비즈니스 목표에 따라 달라진다.
분류 평가 지표는 이진 분류와 다중 클래스 분류 모두에 적용 가능하다. 가장 기본적인 지표는 정확도이지만, 클래스 불균형이 심한 데이터셋에서는 정밀도, 재현율, F1 점수가 더 유용한 경우가 많다. 정밀도는 모델이 양성이라고 예측한 샘플 중 실제 양성인 비율을, 재현율은 실제 양성 샘플 중 모델이 양성으로 맞춘 비율을 의미한다. F1 점수는 이 두 지표의 조화 평균이다. 또한, ROC 곡선과 그 아래 면적인 AUC는 모델의 판별 능력을 임계값에 무관하게 평가하는 데 널리 쓰인다.
회귀 평가 지표는 예측값과 실제값 사이의 오차 크기를 측정한다. 대표적인 지표로는 평균 제곱 오차, 평균 절대 오차, R-제곱이 있다. 평균 제곱 오차는 오차를 제곱하여 평균을 내므로 큰 오차에 더 민감하게 반응한다. 평균 절대 오차는 오차의 절대값 평균으로 해석이 직관적이다. R-제곱은 모델이 데이터의 분산을 얼마나 잘 설명하는지를 보여주며, 1에 가까울수록 좋은 모델이다.
적절한 평가 지표를 선택하고 해석하는 것은 모델 개발 과정에서 매우 중요하다. 단일 지표에만 의존하기보다는 문제의 맥락과 함께 여러 지표를 종합적으로 검토하는 것이 바람직하다. 예를 들어, 스팸 메일 필터링에서는 정밀도를 높이는 것이 중요할 수 있지만, 질병 진단 모델에서는 재현율을 높이는 것이 더 중요할 수 있다[5].
6.1. 분류 평가 지표
6.1. 분류 평가 지표
분류 모델의 성능을 정량적으로 측정하기 위해 다양한 평가 지표가 사용된다. 올바른 평가 지표 선택은 문제의 성격과 비즈니스 목표에 따라 달라진다.
가장 기본적인 평가는 혼동 행렬을 통해 이루어진다. 혼동 행렬은 예측 결과와 실제 값을 네 가지 범주(참 양성, 거짓 양성, 참 음성, 거짓 음성)로 교차 표시한 표이다. 이 표를 바탕으로 정확도, 정밀도, 재현율, F1 점수와 같은 지표를 계산할 수 있다. 정확도는 전체 예측 중 올바른 예측의 비율이지만, 데이터가 불균형할 경우 신뢰도가 낮아질 수 있다. 정밀도는 양성으로 예측한 것 중 실제 양성인 비율을, 재현율은 실제 양성 중 올바르게 양성으로 예측한 비율을 의미한다. 정밀도와 재현율은 일반적으로 트레이드오프 관계에 있으며, 이를 조화평균한 값이 F1 점수이다.
지표 | 공식 | 설명 |
|---|---|---|
정확도 | (TP+TN) / (TP+TN+FP+FN) | 전체 예측 중 맞은 예측의 비율 |
정밀도 | TP / (TP+FP) | 양성 예측의 정확도 |
재현율 | TP / (TP+FN) | 실제 양성을 찾아내는 능력 |
F1 점수 | 2 * (정밀도*재현율) / (정밀도+재현율) | 정밀도와 재현율의 조화평균 |
이진 분류뿐만 아니라 다중 클래스 분류 문제에서는 평가 방법이 더 복잡해진다. 각 클래스별로 정밀도와 재현율을 계산한 후, 이를 평균내는 방식이 사용된다. 마이크로 평균은 모든 클래스의 참 양성, 거짓 양성 등을 전체적으로 합산하여 지표를 계산하는 반면, 매크로 평균은 각 클래스별 지표의 산술 평균을 계산한다. 또한, ROC 곡선과 그 아래 면적인 AUC는 모델의 판별 능력을 임계값에 관계없이 평가하는 데 널리 사용된다. ROC 곡선은 거짓 양성률에 대한 참 양성률의 변화를 그래프로 나타낸 것이며, AUC 값이 1에 가까울수록 모델의 성능이 우수함을 나타낸다.
6.2. 회귀 평가 지표
6.2. 회귀 평가 지표
회귀 모델의 성능을 정량적으로 측정하기 위해 여러 가지 평가 지표가 사용된다. 이러한 지표는 모델이 예측한 값과 실제 관측값 사이의 차이, 즉 오차를 계산하는 방식을 바탕으로 한다. 대표적인 지표로는 평균 제곱 오차, 평균 절대 오차, 평균 제곱근 오차, 결정 계수 등이 있다.
각 지표는 오차를 측정하는 방식과 단위, 이상치에 대한 민감도가 다르다. 예를 들어, 평균 제곱 오차는 오차를 제곱하여 합산하므로 큰 오차에 대해 더욱 민감하게 반응한다. 반면, 평균 절대 오차는 절댓값을 사용하여 오차의 크기를 직접적으로 평균하므로 이상치의 영향을 상대적으로 덜 받는다. 평균 제곱근 오차는 평균 제곱 오차에 제곱근을 취해 원래 데이터와 동일한 단위로 해석할 수 있게 만든 변형이다.
지표 | 공식 (단순화) | 특징 |
|---|---|---|
평균 제곱 오차 (MSE) | (1/n) * Σ(실제값 - 예측값)² | 오차의 제곱을 평균함. 큰 오차에 강하게 패널티를 부여함. |
평균 절대 오차 (MAE) | (1/n) * Σ\ | 실제값 - 예측값\ |
평균 제곱근 오차 (RMSE) | √MSE | MSE의 제곱근. 원본 데이터와 단위가 동일해 해석이 용이함. |
결정 계수 (R²) | 1 - (SS_res / SS_tot) | 모델이 데이터의 분산을 설명하는 비율을 나타냄. 1에 가까울수록 좋은 성능을 의미함. |
결정 계수는 모델의 설명력을 평가하는 지표로, 0에서 1 사이의 값을 가지며, 1에 가까울수록 모델이 데이터의 변동을 잘 설명한다고 해석한다. 단, 변수를 무분별하게 추가하면 결정 계수 값이 인위적으로 높아질 수 있어 주의가 필요하다. 따라서 모델 평가 시에는 단일 지표에 의존하기보다는 문제의 맥락과 데이터의 특성을 고려하여 여러 지표를 종합적으로 검토하는 것이 바람직하다.
7. 실전 적용 사례
7. 실전 적용 사례
지도 학습은 레이블이 지정된 데이터를 사용하여 모델을 학습시키기 때문에, 현실 세계의 다양한 문제 해결에 널리 적용된다. 그 핵심은 과거 데이터의 패턴을 학습하여 새로운, 보지 못한 데이터에 대한 예측을 수행하는 데 있다.
주요 적용 분야는 크게 분류와 회귀 분석 문제로 나눌 수 있다. 분류 문제의 대표적인 사례로는 스팸 메일 필터링, 의료 영상 분석을 통한 질병 진단, 신용 평가를 위한 고객의 채무 불이행 여부 예측 등이 있다. 회귀 문제에서는 주택 가격 예측, 제품 수요 예측, 금융 시장에서의 주가 변동성 예측 등이 있다. 이러한 모델들은 각 분야에서 의사 결정을 지원하거나 업무 효율을 극대화하는 데 기여한다.
아래 표는 지도 학습이 적용되는 몇 가지 구체적인 산업 분야와 사례를 정리한 것이다.
적용 분야 | 주요 사례 | 사용되는 알고리즘 유형 |
|---|---|---|
금융 | 신용 카드 사기 탐지, 대출 승인 평가, 주식 가격 예측 | |
의료 | 의료 영상(엑스레이, MRI)을 통한 암 진단 보조, 환자 재입원 위험 예측 | |
전자 상거래 | 개인화된 상품 추천, 고객 이탈 예측, 반품 가능성 예측 | |
제조/물류 | 설비 고장 예측 정비, 공정 불량률 예측, 배송 소요 시간 예측 | |
자연어 처리 | 감성 분석(리뷰 긍정/부정 분류), 텍스트 분류(뉴스 카테고리 분류) |
이러한 적용은 단순한 자동화를 넘어, 인간의 판단으로는 발견하기 어려운 복잡한 상관관계와 패턴을 데이터에서 추출하여 인사이트를 제공한다. 예를 들어, 서포트 벡터 머신이나 신경망을 이용한 이미지 분류는 제조 라인에서 미세한 결함을 찾아내고, 의사결정나무 기반 모델은 고객의 다양한 행동 데이터를 분석하여 마케팅 전략을 수립하는 데 활용된다.
8. 장점과 한계
8. 장점과 한계
지도 학습은 레이블이 지정된 데이터를 활용한다는 점에서 명확한 목표를 가지고 모델을 학습시킬 수 있다. 이는 모델의 성능을 정량적으로 평가하고 해석하기 용이하게 만드는 주요 장점이다. 예를 들어, 분류 문제에서는 정확도나 정밀도와 같은 지표로, 회귀 분석 문제에서는 평균 제곱 오차와 같은 지표로 모델의 예측 능력을 직접 측정할 수 있다. 또한, 충분한 양의 고품질 훈련 데이터가 확보된다면, 복잡한 패턴을 학습하여 인간의 판단을 보조하거나 자동화하는 데 매우 효과적이다.
그러나 지도 학습은 몇 가지 명확한 한계를 지닌다. 가장 큰 문제는 레이블이 달린 대규모 데이터셋을 구축하고 관리하는 데 드는 비용과 시간이다. 데이터 수집과 데이터 어노테이션 작업은 전문 지식이 필요할 뿐만 아니라 막대한 자원을 소모한다. 또한, 훈련 데이터에 존재하는 편향이나 오류가 그대로 모델에 학습되어 편향된 예측을 할 위험이 있다[6].
지도 학습 모델의 성능은 훈련 데이터의 분포에 크게 의존한다. 따라서 훈련 데이터가 충분히 다양하지 않거나, 훈련 데이터와 실제 운영 환경에서 마주하는 데이터의 분포가 다를 경우(분포 외 데이터), 모델의 성능은 급격히 저하된다. 이는 모델의 일반화 능력을 제한하는 요인이다. 마지막으로, 딥 러닝과 같은 복잡한 모델은 높은 예측 성능을 보이지만, 그 결정 과정을 해석하기 어려운 블랙박스 문제를 야기하기도 한다.
